La risposta di Google ai progressi dell'IA: Battaglia tra Astra, Veo e Gemini
Questa è la risposta di Google a OpenAI.
Un'IA generale, un'IA che può essere realmente utilizzata quotidianamente, sarebbe imbarazzante tenere una conferenza stampa se non fosse così ora.
Nella prima mattinata del 15 maggio, è iniziata ufficialmente la conferenza annuale Google I/O degli sviluppatori, il "Gala di Primavera del Mondo della Tecnologia". Quante volte è stata menzionata l'intelligenza artificiale nei 110 minuti del Keynote principale? Google ha fatto i conti:
Sì, si parla di IA ogni minuto.
La competizione dell'IA generativa ha recentemente raggiunto un nuovo culmine, e il contenuto di questa conferenza I/O ruota naturalmente attorno all'intelligenza artificiale.
"Un anno fa su questo palco, abbiamo condiviso per la prima volta i nostri piani per il modello multimodale nativo, Gemini. Ha segnato la nuova generazione di I/O," ha dichiarato il CEO di Google Sundar Pichai. "Oggi, speriamo che tutti possano beneficiare della tecnologia di Gemini. Queste caratteristiche rivoluzionarie penetreranno nella ricerca, nelle immagini, negli strumenti di produttività, nei sistemi Android e in molti altri aspetti."
Attualmente, sia 1.5 Pro che 1.5 Flash sono disponibili per anteprima pubblica e offrono una finestra di contesto di 1 milione di token in Google AI Studio e Vertex AI. Ora, 1.5 Pro offre anche una finestra di contesto di 2 milioni di token per gli sviluppatori che utilizzano l'API e i clienti di Google Cloud tramite una lista d'attesa.
Inoltre, Gemini Nano è stato ampliato dall'input testuale puro all'input visivo. Entro la fine di quest'anno, a partire da Pixel, Google lancerà Gemini Nano multimodale. Questo significa che gli utenti mobili possono non solo elaborare input testuali ma anche comprendere informazioni contestuali più ampie, come immagini, suoni e linguaggio parlato.
La famiglia Gemini accoglie un nuovo membro: Gemini 1.5 Flash
Il nuovo 1.5 Flash è stato ottimizzato per velocità ed efficienza.
Nuova Generazione di Modelli di Grandi Dimensioni Open Source Gemma 2
Oggi, Google ha anche rilasciato una serie di aggiornamenti per il modello open source di grandi dimensioni Gemma – Gemma 2 è qui.
Come introdotto, Gemma 2 utilizza una nuova architettura mirata a raggiungere prestazioni e efficienza rivoluzionarie; i nuovi parametri del modello open source sono 27B.
Quando si tratta di video lunghi, Veo può produrre video di 60 secondi o anche più lunghi. Può farlo attraverso un singolo prompt o fornendo una serie di prompt che insieme raccontano una storia. Questo è fondamentale per l'applicazione dei modelli di generazione video nella produzione cinematografica e televisiva.
Veo si basa sul lavoro di Google nella generazione di contenuti visivi, inclusi Generative Query Network (GQN), DVD-GAN, Immagine-in-Video, Phenaki, WALT, VideoPoet, Lumiere e altri.